Intégration de données hétérogènes basée sur la qualité
نویسندگان
چکیده
RÉSUMÉ. Les systèmes de médiation constituent une réponse architecturale pour un accès transparent à des sources de données distribuées. Cependant, leur mise en oeuvre pose un certain nombre de problèmes, tant en ce qui concerne la génération des liens sémantiques entre le schéma de médiation et les sources de données (requêtes de médiation) qu'en ce qui concerne l'adaptation de l'accès aux besoins des utilisateurs ou la mesure de la qualité des données obtenues. Ces problèmes sont d’autant plus cruciaux lorsque les sources sont nombreuses et hétérogènes. Nous proposons un atelier de conception qui permet de générer automatiquement les requêtes de médiation dans un contexte relationnel et XML et d’adapter ces requêtes aux besoins des utilisateurs en termes de qualité.
منابع مشابه
Classification non supervisée des données hétérogènes à large échelle
Résumé. Quand il sera question de classifier des données massives, le temps de réponse, l’accès disque et la qualité des classes formées deviennent des enjeux majeurs pour les entreprises. C’est dans ce cadre que nous avons été amenés à définir un cadre de classification non supervisée des données hétérogènes à large échelle qui contribue à la résolution de ces enjeux. Le cadre proposé s’articu...
متن کاملVers l'intégration multidimensionnelle d'Open Data dans les entrepôts de données
Résumé. L’émergence de nombreuses sources d’Open Data poussent plusieurs communautés de recherche ainsi que des entreprises à développer des outils permettant leur exploitation. En particulier, les données statistiques présentes dans les Open Data peuvent constituer des informations utiles aux analyses décisionnelles. Toutefois les Open Data très hétérogènes et disséminés en plusieurs morceaux ...
متن کاملUne nouvelle approche pour la sélection de variables basée sur une métrique d'estimation de la qualité
Résumé. La maximisation d’étiquetage (F-max) est une métrique non biaisée d’estimation de la qualité d’une classification non supervisée (clustering) qui favorise les clusters ayant une valeur maximale de F-mesure d’étiquetage. Dans cet article, nous montrons qu’une adaptation de cette métrique dans le cadre de la classification supervisée permet de réaliser une sélection de variables et de cal...
متن کاملCohérence des données de bases RDF en évolution constante
Résumé. Le maintien de la qualité et de la fiabilité de bases de connaissances RDF du Web Sémantique est un problème courant. De nombreuses propositions pour l’intégration de « bonnes » données ont été faites, se basant soit sur les ontologies de ces bases, soit sur des méta-données additionnelles. Dans cet article, nous proposons une approche originale, basée exclusivement sur l’étude des donn...
متن کاملIntégration de données environnementales : une approche basée sur les entrepôts de documents XML et les ontologies
Résumé. Cet article présente l’approche que nous avons adoptée pour résoudre le problème d’intégration de données dans le contexte du projet SIC-Sénégal dont l‘objectif est de permettre à plusieurs organismes partenaires de partager leurs sources de données environnementales. Nous réalisons une intégration en deux phases. Une première phase d’intégration structurelle, basée sur l’utilisation d’...
متن کامل